#Claude AI
一年後程式設計師將會逐步消失| Boris(claude code技術負責人) 訪談筆記
來源:Lenny's Podcast,2026年2月,約95分鐘一、他自己怎麼用 AI從去年 11 月到現在沒手寫過一行程式碼。每天 10 到 30 個 PR,全是 Claude Code 出的。早上睜眼第一件事:拿手機打開 Claude iOS 的 code tab,把 agent 派出去跑。同時掛著四五個 agent 平行幹活。他在 Instagram 那會兒就是產出最高的幾個工程師之一。不是本來就寫得少。這一點,從去年11月份到現在還手寫程式碼的同學需要反思了(國央企,保密單位啥的沒辦法的不算),國內用不了claude ios app的也要反思了,不過還不晚,從今天起全部借助 agent,多個agent,另外能搞成skill的節能或者能力的都能搞盡快搞。二、他對程式設計的定調"Coding is largely solved." 至少他自己做的那類活,已經解決了。下一步是 agent 不光寫程式碼,還自己提需求。翻 feedback,看 bug report,讀 telemetry,然後跑來跟你說"這幾個可以修""那幾個可以加"。一到兩年後,學一門具體語言沒啥意義了。就跟現在沒幾個人在乎彙編一樣。年底前 "software engineer" 這個詞會開始退場,換成 "builder"。或者乾脆不分了,人人都是 PM 兼碼農。要立即退出程式設計的行列,不要在古法程式設計了,提升效率,程式語言的學習將沒有意義,這一點挺讓人傷心的,但是不能固步自封啊,前進吧。年底前,軟體工程師將會逐步的,徹底退出歷史舞台,這一點其實有點誇張,borris作為全球最頂級程式設計 agent的負責人,說的激進點沒啥問題,不過明年年底前肯定要退出歷史舞台了。三、資料SemiAnalysis 的報告:GitHub 上 4% 的 commit 是 Claude Code 寫的。這還只是公開倉庫,私有的比例更高。年底可能到 20%。增速不是線性的,還在往上翹。Anthropic 內部工程師產出漲了 200%(按 PR 算)。Boris 之前在 Meta 管程式碼質量, 幾百號人折騰一年也就提幾個百分點。對比之下這個數很離譜。這一點是程式設計師們心裡最痛的一個點,github啊,全球開放原始碼的集中地,後續將會有90%以上的程式碼都是由AI完成,這很難接受,難接受但是很合理。四、這東西怎麼來的剛加入 Anthropic 的時候花了一個月各種瞎搞原型,大部分沒出貨。又花了一個月做post-training,瞭解模型底層。他習慣搞清楚你踩的那層下面那層是什麼。第一個原型叫 Claude CLI。給模型一個 bash 工具讓它自己玩。他隨口問"我在聽什麼歌",模型自己就用 bash 翻出來了。他自己都沒想到這問題能答。發內部公告拿了兩個 like。沒人覺得終端裡能長出什麼正經程式設計工具。為什麼是終端?因為開始就他一個人。終端最省事。後來發現這歪打正著——模型迭代太快了,別的介面根本跟不上。終端正好是最"裸"的殼。2025 年 2 月對外發,一開始也不算爆款。好幾個月大家才搞懂怎麼用。Opus 4 之後開始真起飛。大牛也一樣要經歷沒人理睬的時刻,但是依然保持熱情,結果一下就爆了,在整個AI發展事上Borris恐怕會像linus一樣留下美名,雖然有很多安妮紡織機的工人會很反感他,開玩笑,繼續往下看。五、產品哲學1. 潛在需求(Latent Demand)老版本:看使用者拿你產品在幹什麼歪門邪道,然後把它做成正經功能Facebook Marketplace 是這麼來的:40% 的群組帖子其實是買賣東西。Facebook Dating 也是:60% 的 profile 瀏覽是異性非好友。Co-work 更典型:一堆非技術使用者用 Claude Code 種番茄、分析基因組、恢復硬碟照片、看 MRI 片子。那就給他們做個正經產品算了。這就是傳統的軟體開發流程啊,使用者需要什麼,我們就去滿足它。新版本(AI 時代):看模型自己想幹什麼,順著它的勁兒來。別跟它較勁。2. 別給模型套框一年前可能還需要各種編排器、固定工作流。現在給工具和目標就行,讓它自己找路。Claude Code 從頭就定了"模型即產品"。最少的殼,最少的內建工具,讓模型自己決定用啥、按什麼順序。現在claude code的確是最少的殼,最少的內建工具,用著用著模型會自主決定用那個工具,不帶跟你商量的,其實使用者在用的過程中也不斷的完善自己的一堆skills.3. Bitter Lesson通用模型永遠吃掉專用模型。別在小模型、fine-tune、工作流上花太多力氣,下一版模型出來全給你抹平。他的原話:"Build for the model six months from now." 前六個月產品可能很一般,模型一上來直接起飛。如果一開始大家就知道,通用模型會吃掉專用模型,很多的資金就可以節省下來,很多創業的小夥伴就可以好好的了,不得不佩服段永平先生的一個神觀點:敢為人後,AI初期,攻城略地很有意義,但是觀察整個行業,在合適的時候出手沒問題,不要一開始就跑馬入場,很可能成炮灰,但是學習,持續的觀察整個行業動態是必須的,前置的。4. 少給資源人少反倒逼著人用 AI 想辦法。一個人扛一個項目,自然就想快點出貨。AI 給你加速,不需要老闆在後面催。後邊一個老闆帶著一個有編碼經驗的老碼農就行了,這也是碼農的福利了,一個碼農要兼PM,設計以及測試(其實增加一個測試skill就可以了),老闆在市場衝鋒陷陣,後邊一個碼農就是一個產研團隊,給老闆提供充足的支援。5. 反饋飛輪內部有個 channel 全是吐槽。Boris 早期是有人反饋幾分鐘內出 PR。讓人覺得自己說了算,反饋就越來越多,飛輪就轉起來了。現在 Claude 自己替他幹大部分。激情四射的Borris!六、安全:三層底層:mechanistic interpretability(機制可解釋性),直接看神經元在幹嘛,追蹤"欺騙神經元"之類的東西。Chris Olah 是這個領域的開創者。中層:evaluations,實驗室環境的安全評估。上層:丟到真實世界,看它在野外的表現。所以產品發佈經常叫 "research preview",不是噱頭,是在收真實資料。"Race to the top":把 sandbox 開源了,任何 agent 都能用。想讓行業在安全上捲起來,別比爛。安全是必須要考慮的,AI時代安全比網際網路時代的安全更隱蔽,而且現在在很初期的階段,,前兩天發生了一起使用者用cursor + optus 4.6刪除使用者生產資料庫造成損失的案例,我別的文章有詳細報導。見AI9秒刪庫事件:程式設計師必學的5條安全教訓七、工程師這個角色的去向Cursor 插曲:2025 年中加入 Cursor,兩周走人。原因簡單——他想念 Anthropic 的使命。Cursor 做的事很酷,但他需要工作綁在一個更大的意義上,不然自己待不住。他學程式設計的起點:中學給圖形計算器寫程序,為了數學考試作弊。後來寫了個通用求解器賣給全班,大家一起被抓。老師沒讓他們畢業。從頭到尾程式設計就是工具,不是目的。也承認有人就是愛手寫。隊裡有工程師周末還手搓 C++,就是享受。"以後還會有空間,就像現在還有人寫鋼筆字。"給學生:學校別光盯著程式碼。去學系統架構、產品、設計、商業。以後最搶手的人不是最會寫程式碼的,是能跨好幾個領域、知道到底該造什麼的人。程式設計師同學們,這是個哲人啊,程式設計永遠是工具,不應該是目的,不能贊同更多。或許,以後網路直播手寫程式碼也會成為一個流量的噱頭。還在學電腦沒畢業的孩子們,要去看看這篇文章的原視訊,看看Borris的更詳細的說明,要學架構、產品、設計、商業。後續的人才必須是跨學科的,應該不是說人才,而是普通的打工人也要是跨領域的,一招鮮,吃遍天的時代徹底終結了。八、印刷術這個類比1450 年代以前,歐洲識字率不到 1%。所有文字活全交給抄寫員(scribes)。古騰堡之後 50 年,產出的印刷品比之前一千年加起來還多。成本降了一百倍。200 年後識字率從 1% 到了 70%。沒有印刷術就沒有文藝復興——沒人識字你傳播什麼。有個歷史文獻挺妙的:當時有抄寫員被問到對印刷術的看法,說很高興終於不用抄書了,可以專心做插畫和裝訂(那些更有意思的活)。Boris 把自己跟這個比:不用再折騰配環境、調依賴、修編譯錯誤那些破事了。時間花在跟使用者聊、想方向、跟團隊碰。長期看:程式設計從少數人的手藝變成人人都有的能力,能釋放出什麼?猜不到,但樂觀。短期看:會疼,會有人被淘汰。這是全社會的事,不該一家公司拍板。古騰堡是西方近代印刷術之父,borris舉這個例子就是說明,碼農終於不用手寫程式碼了,終於可以利用自己的頭腦,借助AI做很多自己喜歡做的事情,但是陣痛是不可避免的,長期來看是正向的,積極的。九、對程式設計師說的實在話用最強模型。Opus 4.6 + maximum effort。便宜模型來回修反而更費 token。八成任務先開 plan mode。原理土到掉渣:就是注入一句"先別寫程式碼"。計畫對味了再讓它跑,4.6 下幾乎一把過。給工程師拉滿 token。單人實驗的 token 費遠低過他的工資。真跑出好東西再最佳化成本。各種介面都試試。terminal、desktop app、手機端,那個順手用那個。這不是個純終端工具。多開幾個 agent 平行跑。別一次只跑一個。別怕,去玩。泡在工具最前沿,這是唯一不掉隊的方式。這段既是在宣傳自己的產品,雖然不用宣傳也知道你是最強的,也是在告訴大家一個道理,最貴的可能是最便宜的,而最便宜的可能才是最貴的。我喜歡這種自信。十、零碎但有意思的他生在烏克蘭奧德薩,主持 Lenny 也是。倆人訪談中途當場認老鄉。爺爺是蘇聯第一批程式設計師,用打孔卡寫程序。他媽小時候拿打孔卡當塗鴉紙。進 Anthropic 之前在日本的鄉下住了好幾年,鎮子上唯一寫程式碼的、唯一說英語的。會做味噌。白味噌三個月起,紅的要兩到四年。說是他練耐心用的,也是 AGI 之後的退休方案。書單:《Functional Programming in Scala》(他說是最好的技術書,雖然你可能不寫Scala 了)、《Accelerando》(Charles Stross,節奏和現在 AI 這波一模一樣)、《流浪地球》短篇集(說中國視角的科幻跟西方完全不同,看著新鮮)。格言:use common sense。別看到流程就跟著跑,別看到大家都在做就覺得對。聞著不對勁,它就是不對勁。就這些,這是一個頂級極客,也是一個有意思的很自信的人,碼字不易,歡迎大家點贊推薦打賞三連,原視訊細節更多,歡迎去看。 (米斯特太陽)
撕開Claude Code真相:讓它好用的98.4%,是工程不是AI
當普通人還在鑽研「最強提示詞咒語」時,矽谷頂級實驗室已經把AI基建跑成了生產線。你還在ChatGPT的聊天框裡反覆調prompt?最近,一位X使用者發了條推文,開頭就是一個驚呼:頭部大廠偷偷在用的Claude Code項目範本外洩!這已經不是寫提示詞了。這是AI工程基礎設施。整套打法圍繞一個檔案「CLAUDE.md」展開,而它的核心原則只有三條:每次Claude犯錯→你加一條規則;每次你重複自己→你加一個工作流;每次出bug→你加一道護欄。這樣做,是要把項目經驗沉澱成它每次啟動都會讀取的長期上下文和自動化約束。整個架構,像是一家AI公司的崗位編制:CLAUDE.md是入職手冊,skills/是工作SOP,hooks/是合規部,docs/是公司章程,tools/是後勤組,src/才是真正出活的業務部門。你不再是在和AI聊天了,而是在建構一個瞭解你程式碼倉庫的AI。最瘋狂的部分是,你只需要配置一次,Claude就會自動審查程式碼,並按指令重構、強制執行架構規則、撰寫發佈說明、從技能中運行工作流、記住過去錯誤等。而且它會越用越聰明。大多數人,都是打開ChatGPT,寫提示詞,複製貼上,反覆;而在這套打法下,你只需要打開終端,跑一個skill程式碼已交付。這等於是在自己的程式碼庫裡養了一隊AI同事。這條推文背後,傳遞的是這個時代正在悄悄翻篇的一個小訊號,大多數人可能還沒反應過來。一張不算洩露的「洩露截圖」撕開一個真相@ai_rohitt曬出來的這張截圖,是Anthropic官方文件裡公開推薦的Claude Code標準範式。CLAUDE.md是Claude Code在每次會話開始時自動讀取的項目記憶檔案。.claude/skills/和.claude/hooks/是官方支援的擴展機制。這些都是社區已經討論了幾個月的公開做法,並不是什麼人偷出來的「內部範本」。但它之所以能讓一些資深開發者主動轉發,說明它得到了一些天天用Claude的開發者們的認同。其中相當一部分人,可能這兩天才意識到原來它還能這麼用。而矽谷頂級團隊,已經把這件事跑成了生產線。第一個例子,是OpenAI Frontier團隊。OpenAI官方披露的Frontier團隊實驗中,一個從空repo起步的內部beta,在約5個月內由Codex生成了約100萬行程式碼和約1500個PR;團隊從3人擴展到7人,人工不直接寫程式碼。帶隊的Ryan Lopopolo在後續訪談中進一步提到,這套工作流已經接近「0 人工程式碼、0 人工 review」的極限形態。他認為與其節省token,不如利用模型極高的並行能力和極低的成本來代替人類有限且昂貴的同步注意力。第二個例子,是Stripe內部的自動化程式碼代理系統Minions。Stripe內部的Minions每周生成並推動超過1300個PR合併,這些程式碼從頭到尾由AI生成,但仍經過人工review。這裡還有一對資料:1.6%vs98.4%,它來自Mohamed bin Zayed AI大學VILA-Lab發表的一篇論文。https://arxiv.org/pdf/2604.14228研究者係統性扒了Claude Code v2.1.88版本51.2萬行TypeScript原始碼,給出的結論是:只有1.6%是AI決策邏輯,剩下的98.4%是確定性的工程基礎設施。具體說就是權限閘道器、上下文管理、工具路由、錯誤恢復這四類。這組數字不是說模型只貢獻1.6%的能力,而是說明Claude Code作為產品,大量複雜度不在模型本身,而在權限、上下文、工具路由、恢復機制等確定性工程基礎設施上。@ai_rohitt那張圖裡的CLAUDE.md/skills/hooks結構,就是普通開發者也能搭一套的「入門版基建」,它和OpenAI、Stripe那套生產級架構是同一種範式,只是規模小得多。CLAUDE.md暴露的秘密過去3年,所有人都在問「GPT什麼時候能更聰明」「Claude什麼時候出新版本」。但真正在生產環境跑通AI程式設計的團隊,他們更關心的可能根本不是這個,而是如何讓AI記住自己上次踩過的坑,怎麼讓AI在動手前先看一眼項目的架構約束,怎麼讓AI犯錯的時候自己被工具擋住。CLAUDE.md正是這一切的承載體。Anthropic官方對它的定義只有一句:一個markdown檔案,放在項目根目錄,Claude Code在每次會話開始時自動讀取。https://code.claude.com/docs/en/memory聽上去很簡單,圍繞它展開的那幾層結構,才是它真正厲害的部分。CLAUDE.md是項目大腦。架構決策、命名約定、測試要求、那些反覆踩過的坑,都堆在這裡。它是AI每次啟動時第一眼看到的「員工手冊」。.claude/skills/是可復用工作流。Claude Code的建立者Boris Cherny在社區裡反覆強調一句話:「如果你每天做某件事超過一次,把它變成skill或command。」一個skill就是一段可執行的方法論。Code review、生成commit message、寫發佈說明,這些都不該是每天手敲提示詞的活,應該是skill調一下就出結果。.claude/hooks/是自動護欄。這是最關鍵的部分。它不依賴AI自己判斷,由確定性程式碼在AI犯錯之前就擋住它。這就是為什麼敢讓AI「無人監督」地跑,因為出錯的邊界由hooks卡死了。docs/decisions/是架構決策記錄。讓AI不僅知道程式碼「是什麼」,還知道程式碼「為什麼是這樣」。這一項最容易被忽略,但也是AI協作最大的槓桿點。tools/和src/是執行層。這套架構真正值得注意的地方,不在於某個開發者搞出了一個漂亮目錄,而是越來越多獨立團隊正在收斂到同一個方向:把模型放進一套由上下文、工具、權限、評估和反饋循環組成的harness裡。GitHub上已經能看到不少類似項目:rohitg00的awesome-claude-code-toolkit、diet103的claude-code-infrastructure-showcase、affaan-m的everything-claude-code,都在圍繞agents、skills、hooks、rules、MCP configs等元件搭建Claude Code的工程化工作環境。這說明,真正成熟的AI程式設計工作流,不是只靠一個更強的模型,也不是只靠一條更長的prompt,而是把模型嵌入一套可復用、可約束、可恢復、可審計的工程系統裡。至於具體目錄結構,各家實現並不完全相同。OpenAI實驗室的極限實驗2026年2月11日,OpenAI官方部落格發了一篇文章:《Harness engineering: leveraging Codex in an agent-first world》。https://openai.com/index/harness-engineering/Anthropic圍繞這個概念重新調整了Claude Code的架構思路;Martin Fowler的網站把它凝練成一個公式:「Agent=Model+Harness。」Harness這個詞來自馬術。它指的是馬的整套挽具,韁繩、馬嚼子、馬鞍、籠頭。一匹馬可以跑得很快很有力,但它自己不知道往那兒走:整套挽具決定了它的方向。類比到AI程式設計:模型本身能力很強,但它不知道在你的程式碼庫裡該往那兒走。Harness就是你為它造的方向盤+剎車+導航。OpenAI Frontier團隊那個「100萬行0人工」的實驗,本質就是把Harness做到極致。他們的關鍵工程實踐包括以下幾條。層級架構強約束。從Types到Config到Repo到Service到Runtime到UI,依賴關係單向流動,由linter在CI層強制執行。Agent寫出違反層級關係的程式碼?直接建構失敗。linter錯誤資訊本身是修復指令,這也是最反直覺的細節。普通項目的lint錯誤是「violation detected」,給人看的;OpenAI Frontier的lint錯誤是「use logger.info({event: 'name', ...data}) instead of console.log」,給Agent看的、可以直接讀懂並修復的指令。文件作為單一事實來源。所有架構圖、execution plans、設計規範都在倉庫內部的docs/目錄。Agent不需要任何外部知識庫,一切就在repo裡。這套東西效果有多厲害?模型沒有換,但LangChain調整了harness,包括系統提示、工具、中介軟體和推理模式,最終把Terminal Bench 2.0分數從52.8提到66.5。你今天就能做的事是為AI造一個項目大腦問題回到普通開發者這裡:如果範式已經轉移,作為一個普通工程師,今天就能做點什麼。第一件事,在你最重要的項目根目錄建一個CLAUDE.md。不需要完美,也不需要很長。寫下你團隊的架構規則、命名約定、測試要求、那些反覆踩過的坑,10分鐘能寫完一個能用的版本。下次AI犯錯的時候,先不要手動修,而是問自己一句:CLAUDE.md裡缺了什麼?第二件事,把每天重複做的事改造成skill。這裡要注意Boris Cherny的金句:「如果你每天做某件事超過一次,把它變成skill或command。」Code review、生成commit message、寫發佈說明、修一類重複的bug,這些都該是skill,不該是每天手敲提示詞。第三件事,在容易踩坑的地方加一個hook。Hook是98.4%裡最有槓桿的那部分。它不依賴AI變聰明,它依賴確定性程式碼做強制檢查。這是把人類工程師的判斷力翻譯成機器可讀約束的過程。這件事的核心不在寫程式碼,而在寫規則。Karpathy今年1月在推特上的那句被廣泛轉發的話:「我已經從80%手動寫程式碼變成了80%交給Agent寫。」未來五年,工程師的能力曲線正在從「我能寫多少行程式碼」轉向「我能為AI設計多嚴格的工作環境」。寫程式碼的活兒正在被Agent接管。但設計那個讓Agent能寫出好程式碼的世界,還是人的工作。而且比以前更難、更重要、也更有意思。 (新智元)
Anthropic估值突破1兆,Claude Opus 4.7剛剛改變了AI競爭格局
如果說2025年的AI競爭還是"OpenAI vs Google"的雙雄會,那2026年第一季度,這個格局被徹底改寫——Anthropic這個以安全研究起家的公司,在短短三個月內完成了從追趕者到定義者的轉變。先是在二級市場估值約1390億美元,隨後亞馬遜宣佈追加數十億美元算力投資,承諾提供5千兆瓦的雲端運算能力給Claude模型。而最新發佈的Claude Opus 4.7和爆發式增長的Claude Code,正在改變開發者對AI編碼工具的認知。【一、兆估值背後的三重敘事】Anthropic的估值飆升並非偶然,它背後是三條清晰的增長邏輯。▸ 資本敘事:從去年底的約600億美元估值,到2026年4月突破1390億美元,Anthropic只用了不到四個月。推動力來自兩筆關鍵交易——亞馬遜的40億美元追加投資,以及二級市場的機構搶籌。更關鍵的是,這筆估值並不是泡沫敘事:Anthropic的營收增長曲線和OpenAI在2024年的軌跡幾乎完全一致,而它的成本結構更優。▸ 產品敘事:Claude Opus 4.7的發佈是轉折點。與前代相比,它在多模態推理、程式碼生成精度和長上下文理解三個維度上實現了質的飛躍。內部測試顯示,Opus 4.7在複雜程式碼審查任務上的精準率超過了人類資深工程師的中位數。這不再是"接近GPT-4"的故事——在某些維度上,它已經領跑了。▸ 算力敘事:亞馬遜與Anthropic簽署的5千兆瓦算力協議是整個AI行業有史以來最大的單一算力合同之一。這相當於多個核電站的總輸出功率,用來訓練和推理下一代Claude模型。配合Anthropic自研的晶片合作計畫,這意味著Anthropic的算力儲備可能在未來18個月內超越OpenAI。【二、Claude Opus 4.7——到底強在那裡】Claude Opus 4.7的發佈在某些圈子裡引起的不是讚譽,而是恐懼——因為它真的能替代一些高級工程師的工作了。▸ 程式碼能力:在SWE-bench(軟體工程基準測試)上,Opus 4.7得分超過了85%,這意味著它能夠獨立完成大部分真實世界的編碼任務,包括程式碼審查、debug、重構。更可怕的是,它不只是能寫程式碼——它理解程式碼架構。給一個複雜的微服務項目,它能讀懂全貌,定位根因,給出重構方案。這種"架構級理解"能力是目前其他模型不具備的。▸ 多模態推理:Opus 4.7不僅能看懂圖,還能在圖表、流程圖、UML、技術白皮書之間進行跨模態推理。給它一張系統架構圖,它能讀懂每一個元件的關係,指出潛在的單點故障。給它一份論文圖表,它能結合全文內容解釋趨勢背後的原因。▸ 長上下文:Opus 4.7的200K token上下文窗口這次是實打實的。在長文件理解測試中,它能在200頁的技術文件中精準找到特定資訊並給出推理鏈。這對律師、研究員、合規分析師來說,是革命性的——相當於每個分析師都有一個能讀完整年資料的助理。▸ 與國產模型的對比:值得單獨拿出來說的是,就在Opus 4.7發佈後沒幾天,DeepSeek在4月24日發佈了DeepSeek V4——1.6兆參數MoE架構(49B活躍參數),1M token上下文窗口,API定價僅為Opus 4.7的十分之一。具體資料上看:在SWE-bench Verified上,V4-Pro拿到80.6%,與Opus 4.6僅差0.2分;LiveCodeBench上V4-Pro更是以93.5%排名第一。開啟Max推理模式後,V4-Pro-Max在編碼和推理任務上已逼近Opus 4.7的水平。這是國產模型第一次在發佈節點和性能水平上同時追平美國頂級閉源模型。但Opus 4.7的架構級程式碼理解能力——即在不給定具體bug的情況下,主動發現並評估整個項目的技術債務——在國產模型中仍然沒有對等產品。【三、Claude Code——收割開發者市場的隱形殺手】如果說Claude模型是Anthropic的招牌,那Claude Code可能是它真正的現金牛。Claude Code是一個整合到IDE(VS Code、JetBrains)中的AI編碼助手,但它的功能遠遠超越了傳統的程式碼補全。它能獨立管理整個程式碼庫——包括建立分支、提交程式碼、運行測試、修復bug、重構模組。開發者只需要用自然語言描述任務,Claude Code就能自主完成。▸ 增長資料:Claude Code的使用者量在Opus 4.7發佈後的一個月內增長了300%以上。Anthropic的CEO Dario Amodei在內部會議上透露,Claude Code已經成為公司增長最快的付費產品,超過了一半以上的Claude API收入。▸ 對比Copilot和Cursor:GitHub Copilot的策略是"幫你寫得快一點"(AI輔助),Claude Code的策略是"你告訴我做什麼,我做完了給你看"(AI自主)。這是兩種完全不同的哲學。Cursor走的是中間路線,但它依賴的底層模型也在快速迭代。Claude Code的壁壘在於——它和Opus 4.7是深度繫結的,Anthropic在模型層直接做了針對性最佳化,這是第三方工具做不到的。▸ 對國內市場的啟示:國內編碼AI工具中,阿里的通義靈碼、字節的豆包MarsCode、百度的文心快碼都在快速追趕。但它們面臨一個結構性問題——底層模型的編碼能力與Claude Opus 4.7有代差。DeepSeek V4這次在agentic coding上下了重注——SWE-bench Verified 80.6%、LiveCodeBench 93.5%的編碼成績已接近Opus 4.7,而且發佈時就宣稱與Claude Code、OpenCode等工具深度整合。如果國產模型繼續以V4的節奏迭代,這個差距可能在未來6-12個月內縮小。【四、亞馬遜的算力賭注——5千兆瓦意味著什麼】最後落到最實際的問題——算力。亞馬遜和Anthropic的5千兆瓦(GW)算力協議,可能是整個AI行業今年最被低估的新聞。▸ 5GW是什麼概念?足夠給約400萬個美國家庭供電。一個典型的核反應堆輸出約1GW。這意味著Anthropic將擁有5個核電站等級的專屬算力。作為對比,OpenAI在微軟Azure上拿到的算力承諾大約是2-3GW等級。▸ 這筆算力將用來做什麼?主要用來訓練Claude Opus 5和後續模型,以及支撐Claude API的推理需求。Anthropic的安全研究傳統意味著他們在訓練時會做比同行更多的紅隊測試和安全驗證——這需要大量額外的算力。▸ 對國產AI的影響:字節跳動的豆包、百度的ERNIE、深度求索的DeepSeek同樣在快速擴建算力基礎設施。DeepSeek V4通過混合注意力架構(Hybrid Attention Architecture)和MoE設計實現了極高的訓練效率——在1M token長上下文場景下僅需V3時代27%的推理FLOPs。不過,在絕對算力規模上,國產公司與美國頭部AI公司仍有數量級差距。好消息是,華為昇騰晶片的成熟度在快速提升,國產AI晶片生態正在縮小與輝達的距離。【五、超越OpenAI的可行性——Anthropic的三大風險】討論Anthropic的崛起,不能只講利多。這個兆估值能站住嗎?要看三大風險。▸ 第一,營收能否支撐估值?Anthropic目前年化營收約數十億美元規模,而兆估值對應的市銷率超過30倍。這需要Claude API的付費使用者在未來18個月內增長3-5倍——而OpenAI、Google、DeepSeek V4也在以極低價格瘋狂搶客。DeepSeek V4的定價(Pro版$1.74/$3.48每百萬token,Flash版僅$0.14/$0.28)是整個行業的"價格錨",Claude必須用產品力抵消這個價差。▸ 第二,Claude Code的護城河有多深?程式碼助手市場有GitHub Copilot(微軟)、Cursor、Amazon CodeWhisperer等對手。如果微軟把Copilot深度整合到VS Code和GitHub的每個角落,Claude Code的使用者增長可能會遇到天花板。▸ 第三,安全研究公司的悖論——越安全越難商業化。Anthropic以AI安全研究起家,這個基因既是它的品牌溢價,也是它的天花板。在"跑得快"和"跑得安全"之間做權衡時,Anthropic往往會選擇後者。在技術快速迭代的窗口期,這可能是致命的——DeepSeek V4在4月24日從預覽直上正式版就是一個反面案例,它證明了"先發佈+快速迭代"策略的有效性。Anthropic的偏執安全路線能在多大程度上轉化為競爭壁壘,而不是自我設限,還有待驗證。結語:Anthropic的故事告訴我們:在AI這個賽道上,市場格局遠未固定。三個月前還沒人把它當對手,三個月後它估值破兆。有趣的是,就在同一天(4月24日),DeepSeek V4和Claude Opus 4.7幾乎同時定義了中美AI的新坐標系——一個靠價格和開放,一個靠產品和護城河。Claude Opus 4.7和Claude Code不是終點——它們是Anthropic全面進攻的起點。而這場戰爭的下一個變數,可能來自中國的DeepSeek、字節跳動,也可能來自一個還沒有名字的實驗室。 (超前觀察)
講真,DeepSeek V4+Claude Code 就是中國最強 Agent
DeepSeek V4(預覽版)終於在四月底來了!眾望所歸啊。去年 V3 發佈之後大家就開始猜 V4 什麼時候出。之所以周期這麼長,原因很簡單——換卡了,V4 的整個訓練框架都切到了昇騰。要知道,DeepSeek 的深度思考模式,絕對是當時的大模型第一梯隊,甚至是引領者。從 V3 到 V4,這一步真不容易(我接觸到不少小夥伴都不抱期待了)。不管怎麼說,總算是來了。不誘於譽,不恐於誹,率道而行,端然正己。V4 端上來了,V4.1 就快了,威武,哦不,V5 肯定要不了這麼久。注意,V4 這次是全量上線,不需要排隊等資格,直接改 API 裡的 model 參數就可以用。Pro 版改成 deepseek-v4-pro,flash 版改成 deepseek-v4-flash,deepseek-chat 和 deepseek-reasoner 到 7 月 24 號就棄用了。定價方面,pro 比較貴,但 flash 一如既往地親民。在沒有 Coding Plan 的情況下,pro 完成一次開發,價格能接受,但略貴。別的廢話我就不多說了,直接開測。咱就不去寫什麼 demo 了,直接把 DeepSeek V4 接入到 Claude Code 中讓他猛猛幹活。01、Claude Code + DeepSeek V4講真,Claude Code+DeepSeek V4 就是國產最強 Agent。切換模型很簡單,我自己寫了個工具 PaiSwitch,銷售點一點,Claude Code 的底層模型就切到了 DeepSeek V4 Pro。切換底層模型後,重新打開一個終端,輸入 /claude 啟動。可以用 /status 確認下配置是否生效。提示詞:派聰明的聊天入口 http://localhost:9527/#/chat 現在是單窗口模式,我想改成多窗口——能開新對話,舊對話直接歸檔。V4 上來先把整個項目的程式碼結構讀了一遍。讀完之後給了一個改造計畫。要新增那些結構、更新什麼類、重構那塊儲存、頁面佈局怎麼調,都列得明明白白。我全程盯著 token 消耗。讀了那麼多程式碼,加上輸出計畫的量,一塊多。然後開始幹活。V4 規劃了五個任務,先攻後端,再弄前端。後端改了 7 個檔案,前端 5 個,前後大概 15 分鐘。編譯直接過了,有錯誤自己也修了。然後我讓它自己用 CDP 連到 Chrome 跑測試。提示詞:你自己能否 cdp 我的 Chrome 測試一下:http://localhost:9527/#/chat點點按鈕,驗證功能。測出問題自己修。修完繼續測歸檔功能。最後我還讓它最佳化了一下佈局。從頭到尾,Pro 一共花了 10 塊左右。能接受。當然了,有一說一,前端審美這塊確實還比較糙。佈局能用但說不上優雅。功能方面是沒出一點問題。一個好的模型,配上 Claude Code 這種頂級 Harness 架構,能幹的事情就很多了。Claude Code之所以牛X,就是因為。它不只是把你的提示詞轉發給模型,還在中間加了任務拆解、檔案讀寫、終端操作、自動糾錯這些能力。所以同一個 Harness 換不同的底層模型,就能直觀地看出模型之間的差距在那。10 塊錢完成一個完整的功能開發,從程式碼到測試到修 bug,這個成本不算貴。但也不便宜,注意上圖中的小子,下半年卡升級後,pro的加個會大幅下調。很期待下一個版本。02、派聰明 RAG 接入 DeepSeek V4由於我們派聰明RAG做了模型管理。所以我第一時間,也是把 Pro 和 Flash 接上去體驗了一下。問了一模一樣的問題:「派聰明是什麼?」Flash 的回答是這樣的:派聰明是一個企業級的 RAG(檢索增強生成)知識庫項目,最初是技術派實戰項目中用於和 AI 大模型聊天對話的部分(不含檢索增強),後來獨立發展並沿用“派聰明”名稱,旨在延續正宗的皇家血脈。Pro 的回答是這樣的:派聰明是一個企業級 RAG(檢索增強生成)知識庫系統,基於企業文件實現精準的智能問答與知識管理。它最初是技術派實戰項目中的 AI 聊天模組(不含檢索增強),後獨立發展並沿用“派聰明”名稱,旨在延續項目的正統性。系統核心能力包括:文件自動解析與分塊、豆包 Embedding 向量化、關鍵詞與語義混合檢索、基於 DeepSeek 模型的生答、Self-RAG 自驗證機制、JWT+RBAC 多租戶權限隔離、SSE 流式推送等。通過全鏈路閉環,它有效解決知識分散與更新滯後問題,避免大模型“幻覺”,可應用於客服、培訓、合規審查等場景。派聰明完全開源(MIT 協議),教學託管在技術派平台,支援企業私有化部署與二次擴展。一個簡略,一個詳細。畢竟 Pro 啟動參數 49B,Flash 只有 13B,差了將近 4 倍。但重點不在誰答得長。RAG 場景裡,檢索質量才是天花板,模型能力決定的是在這個天花板下能發揮幾成。Flash 的回答雖然短,但核心資訊都抓到了——項目來源、名稱由來、定位。Pro 多出來的那些內容(Self-RAG、JWT+RBAC、SSE 流式推送),其實全都是從知識庫裡檢索出來的原始文件內容,它只是組織得更完整。換句話說,如果你的知識庫文件質量高、分塊合理,Flash 完全夠用。03、DeepSeek V4 值得聊的一點傳統 Transformer 的注意力機制,每個 token 要和前面所有 token 都算一遍相似度。上下文能從 10 萬拉到 100 萬,這是長上下文一直跑不起來的根本原因。DeepSeek 的解法是把注意力拆成兩種,交替堆疊起來用。第一種叫 CSA,全名 Compressed Sparse Attention,壓縮稀疏注意力。它的邏輯是先把每 4 個 token 的 KV 快取合併成一條摘要,然後用 Lightning Indexer 快速估算相關性,讓每個 query 只從這些摘要裡挑出最相關的 top-1024 個去算。DeepSeek V4 pro繪圖第二種叫 HCA,全名 Heavily Compressed Attention,重度壓縮注意力。每 128 個 token 才合併成一條,但不做稀疏選擇,所有壓縮後的摘要全部參與計算。HCA 的定位是維持全域視野,保證模型不會丟了對整段文字的把控。再加一個 128 token 的滑動窗口管局部依賴。也就是說,CSA 負責精細化檢索,HCA 負責全域審視,滑動窗口管好眼前。可以這樣理解這個設計:讀一本 1000 頁的書,傳統注意力是把每一頁和前面所有頁都對比一遍,翻到第 1000 頁的時候要同時記住前 999 頁的細節,腦容量直接爆炸。CSA 的做法是把每 4 頁貼一張便簽紙,唯寫摘要,然後看到某一頁時只去翻最相關的 1024 張便簽紙。HCA 的做法更絕——每 128 頁才貼一張便簽紙,但所有便簽紙都看一眼。再加上手裡的那一頁(滑動窗口),局部細節、中程邏輯、全域脈絡都有了,但腦容量得消耗只有原來的十分之一。04、DeepSeek 真的很克制最讓我意外的是 DeepSeek 官方這次的措辭。公告裡是這樣寫的:使用體驗優於 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式,但仍與 Opus 4.6 思考模式存在一定差距。沒有「吊打」,沒有「碾壓」,沒有「遙遙領先」。在充斥著「超越 GPT」「全球最強」「里程碑式突破」的當下,這種「我們確實還差一截」的表態真的很真誠。「不誘於譽,不恐於誹,率道而行,端然正己。」V4 不是一個完美的模型。就我自己的使用體感下來看,前端這塊的處理我認為還是有很大進步空間的。這種實心的線條來佈局,有點回到返璞歸真的。😄下一版不急,按你的節奏來。 (沉默王二)
GPT-5.5 發佈!Claude Code 連夜治好降智,「奧特曼癱倒」喜提續集
據外媒 Business Insider 報導,Anthropic 在私募二級市場的估值已突破 1 兆美元。作為參照,OpenAI 今年 3 月末最新一輪融資的估值,仍停留在 8520 億美元。除了業內老生常談的「AI 泡沫論」,這組對比資料也表明了曾經穩坐頭把交椅的 OpenAI,如今正在直面被追趕、被超越的壓力,但沒有讓我們等待多久,OpenAI 的反擊旋即而至。就在剛剛,GPT-5.5 正式發佈,同步亮相的還有面向更高階任務的 GPT-5.5 Pro 版本。如果用一句話總結 GPT-5.5 的核心設計思路,那就是讓使用者把一團雜亂、多步驟的複雜任務直接拋給模型,由它自主規劃路徑、呼叫工具、校驗結果、消解歧義,並一路推進。看似只是 0.1 的版本號迭代,在推理效率上卻判若大版本更新—— 同樣的 Codex 任務,GPT-5.5 消耗的 token 顯著更少,既更聰明,也更省。吐槽了一個多月,偏偏等到 GPT-5.5 發佈,Anthropic 才想起要解決降智問題GPT-5.5 登場,不講武德的屠榜GPT-5.5 的紙面成績非常可觀。在知名第三方評測機構 Artificial Analysis 的綜合智能指數榜單上,OpenAI 憑藉 GPT-5.5 系列拿下了第一名和第二名,前六席中包攬了四席,競爭對手幾乎毫無招架之力。基準測試結果顯示,在 Terminal-Bench 2.0(測試複雜命令列工作流)上,GPT-5.5 達到 82.7%,GPT-5.4 為 75.1%,Claude Opus 4.7 為 69.4%。在 SWE-Bench Pro(評估真實 GitHub 問題解決能力)上,GPT-5.5 達到 58.6%,能在單次運行中端到端完成更多工,超過 GPT-5.4 的 57.7%。在 OpenAI 內部的 Expert-SWE 評測上,任務的人類預計完成時間中位數為 20 小時,GPT-5.5 達到 73.1%,GPT-5.4 為 68.5%。且在三項評測上,GPT-5.5 均以更少 token 完成任務。只不過,OpenAI 這次也玩起了腳註裡的小心思,用一行小字暗戳戳質疑 Claude Opus 4.7 部分成績的可信度。但網友 Deedy 對此並不買帳,在他看來,這行備註更像是轉移注意力 —— 畢竟 OpenAI 自己也沒能拿出一套更透明的公開基準,正面佐證 GPT-5.5 的實力。在智能體編碼、computer use(電腦使用)、知識工作和早期科學研究等領域,GPT-5.5 的提升尤為顯著。早期測試者反饋,GPT-5.5 在理解大型程式碼庫整體結構方面明顯更強,能主動預判潛在問題,提前考慮測試和審查需求,無需額外提示。知名評測博主、Every 創始人 Dan Shipper 分享了一個具體案例:他的應用上線後出現問題,自己偵錯數天未果,最終請來工程師重寫了部分系統。他用 GPT-5.5 重現這一場景,結果模型給出了與工程師相同的解決思路,而 GPT-5.4 則無能為力。Cursor 聯合創始人 Michael Truell 表示,GPT-5.5 比 GPT-5.4 更聰明、更有韌性,工具呼叫更可靠,面對複雜長期任務時能堅持更久而不中途停下。更誇張的是,一位輝達工程師在早期體驗後直言:「失去 GPT-5.5 的存取權,感覺就像是我的肢體被截肢了一樣。」如無意外,又一個名梗的誕生(哈??)不過,考慮到奧特曼看完 GPT-5 演示之後,直接「眩暈無力、癱倒在地」,而且這件事到今天也沒有一個正經解釋,輝達工程師這句話,好像也沒那麼誇張了。而在知識工作場景,GPT-5.5 也有著出色的表現。在衡量模型橫跨 44 種職業知識工作能力的 GDPval 評測中,GPT-5.5 獲勝或打平比例達 84.9%,GPT-5.4 為 83.0%,Claude Opus 4.7 為 80.3%,Gemini 3.1 Pro 僅 67.3%。在 OSWorld-Verified(測試模型能否自主操作真實電腦環境)上,GPT-5.5 達到 78.7%,GPT-5.4 為 75.0%,Claude Opus 4.7 為 78.0%。在 Tau2-bench Telecom(測試複雜客服工作流)上,GPT-5.5 在無提示詞調整的情況下達到 98.0%,GPT-5.4 為 92.8%,差距相當明顯。在其他專項評測上,GPT-5.5 在 FinanceAgent v1.1 達到 60.0%,內部投行建模任務達到 88.5%,OfficeQA Pro 達到 54.1%(Claude Opus 4.7 為 43.6%,Gemini 3.1 Pro 僅為 18.1%)。在 BixBench(圍繞真實生物資訊學和資料分析設計)上,GPT-5.5 達到 80.5%,GPT-5.4 為 74.0%,在已發佈分數的模型中排名第一。在 GeneBench(測試遺傳學和定量生物學的多階段資料分析)上,GPT-5.5 達到 25.0%,GPT-5.4 為 19.0%,Pro 版本達到 33.2%。這些任務通常對應科學專家數天的工作量。OpenAI 內部有超過 85% 的員工每周使用 Codex,覆蓋軟體工程、財務、傳播、市場、資料科學和產品管理等部門。財務團隊用 GPT-5.5 審查了 24771 份 K-1 稅務檔案,共計 71637 頁,最終比上一年提前兩周完成。傳播團隊打造了一套自動化 Slack 機器人,負責處理低風險請求自動處理,市場團隊的一名員工則用它自動生成每周業務報告,每周節省 5 到 10 小時。此外,GPT-5.5 的一大亮點還在於推理基礎設施的協同升級。GPT-5.5 與 NVIDIA GB200 和 GB300 NVL72 系統聯合設計和訓練。其中一項關鍵改進是負載平衡和分區策略,Codex 分析了數周的生產流量資料,編寫了自訂啟髮式演算法來動態最佳化分區和負載平衡,最終將 token 生成速度提升了超過 20%。OpenAI 還指出,GPT-5.5 本身也參與了改進自身推理基礎設施的過程。GPT-5.5 即日起向 ChatGPT Plus、Pro、Business、Enterprise 使用者開放,Codex 支援最高 400K 上下文窗口,並提供 1.5 倍速的 Fast 模式(費用為標準價格的 2.5 倍)。GPT-5.5 Pro 則面向 ChatGPT 的 Pro、Business 和 Enterprise 使用者推出。API 版本即將上線,標準定價為每百萬輸入 token 5 美元、每百萬輸出 token 30 美元,上下文窗口為 1M token。批次處理和彈性定價為標準價格的一半,優先處理模式為標準價格的 2.5 倍。GPT-5.5 Pro 的 API 定價為每百萬輸入 token 30 美元、每百萬輸出 token 180 美元。OpenAI 表示,由於 token 效率的提升,大多數使用者的實際使用成本不會有明顯增加。閉口不提 Claude Opus 4.7,卻句句都在內涵。OpenAI 要做 AI 時代的超級入口沒有那一款模型能收穫一邊倒的評價,GPT-5.5 同樣如此。網友 @chetaslua 用一條提示詞在 Codex 中生成了一個帶有風效應物理引擎的完整網站,物理互動和介面設計一併到位,感嘆「這是我第一次覺得 ChatGPT 可以成為解決一切問題的首選 AI 工具」。網友 @petergostev 讓模型生成了一個包含倫敦地標和季節變化的玩具鐵路場景,與 GPT-5.4 的輸出對比後,他的結論是「GPT-5.5 更有野心、一致性更強,錯誤更少」,並在更複雜的應用遷移任務中讓模型連續工作數小時,沒有出現卡殼。當然,吐槽的聲音同樣存在。網友 @arrakis_ai 發現,GPT-5.5 在遇到複雜佈局時有時會直接生成一張圖片了事,處理圖示需求時會從頭硬寫 SVG 而不呼叫現成庫,同時頻繁暫停追問使用者,執行力反而不如從前果斷。文筆方面,我的個人體驗也有類似感受。GPT-5.5 確實比前代更會組織語言了,至少已經能說點人話,但依然有一股怪味:「我就在這裡,不躲,不藏,不繞,不逃, 穩穩地接住你 」。並且,不少網友也注意到,OpenAI 在基準測試榜單上也動了些行銷的心思。網友 Haider 認為,GPT-5.5 和 Mythos 的差距沒有預想的那麼懸殊,而 Mythos 定價是 GPT-5.5 的兩倍,且不公開發售。他的判斷是,下一代 GPT 趕上 Mythos 應該問題不大。據外媒 Techcrunch 報導,面對記者關於「GPT-5.5 是否具備類似 Mythos 能力」的刺探時,OpenAI 技術人員 Mia Glaese 給出了一個滴水不漏卻暗藏鋒芒的回答:「我們在網路安全方面有著長期且強有力的戰略,並且已經完善了一套持久的、安全推出模型的方法。」話外之音已經十分明朗:單一的強大模型終究只是過客。真到了拼數字防禦和企業級落地的深水區,OpenAI 的生態壁壘,才是 B 端客戶唯一穩妥的安全牌。而隨著 GPT-5.5 的登場,OpenAI 的野心已經足夠清晰:他們不再滿足於做一個聰明的聊天機器人,而是要親手打造一個吞噬一切工作流的「AI 超級應用(Super app)」。在接受外媒採訪時,OpenAI 總裁 Greg Brockman 用了一個詞「自主性(Agentic)」來形容這次模型的進步跨越。與前代模型 GPT-5.4 版本相比,GPT-5.5 消耗的 Token 更少,但思考速度更快、邏輯更清晰,開始展現出主動解決複雜問題的能力。這正是邁向超級應用的堅實底座。奧特曼今晚異常興奮,還更換頭像了所謂超級應用,便是將 ChatGPT、Codex 與 AI 瀏覽器深度融合為統一服務。想像未來的工作流:人們不必再在瀏覽器、程式碼編輯器、資料分析工具之間反覆切換。只需對著這個超級應用下達一個宏觀指令,GPT-5.5 就能自主在後台打開網頁蒐集資料、編寫爬蟲程式碼、清洗資料,最終直接交付一份完整的分析報告。當然,猶如 Claude 與 Claude Code 的強繫結,OpenAI 也意在替 Codex 的增長勢頭加一把火。最近,奧特曼表示,Codex 活躍使用者在突破 300 萬不到兩周後便直逼 400 萬大關,OpenAI 隨之重設速率限制,以「量大管飽」的姿態收割開發者生態。一方面,憑藉 GPT-5.5 與 GPT-Image-2 的強勢表現,正面回擊了 Anthropic 在估值預期上的壓力;另一方面,則利用 Codex 的生態粘性緊鎖開發者陣地,穩步構築起橫跨 C 端消費與 B 端企業級服務的完整服務體系。攻守之勢異也,今年以來被詬病掉隊的 OpenAI,終於重新找回兩年前的進攻節奏,並將精力放在了踏踏實實打磨產品上。 (APPSO)
Fortune雜誌—知名AI模型被曝性能驟降,遭使用者抵制
風頭正勁的人工智慧公司Anthropic正面臨一場前所未有的使用者信任危機。此前,該公司旗下Claude AI模型被指性能顯著下滑,遭到部分重度使用者的強烈抵制。這一風波讓這家估值高達3800億美元、據稱正籌備IPO的公司措手不及。目前,Anthropic正緊急應對使用者的集體不滿,並試圖平息外界對其縮減開支背後的動機以及服務承載能力的種種猜測。Anthropic聯合創始人兼首席執行長達里歐·阿莫迪。圖片來源:Chris Ratcliffe—Bloomberg/Getty Images“降配”引發的蝴蝶效應眾多開發者和重度使用者表示,熱門AI模型Claude近期性能大幅下滑:不僅越來越難以遵循使用者指令,還會時而“偷工減料”,進行不合理的簡化處理,甚至在處理複雜工作流時頻繁出錯。投訴的矛頭指向了Anthropic近期悄然進行的一項機制調整。為了節省處理請求時的詞元(Tokens),從而最佳化整體推理成本,公司下調了模型的默認“推理努力度”。簡單來說,單次任務處理的詞元量越大,消耗的算力就越高。業界普遍猜測,Anthropic正面臨嚴重的算力瓶頸。儘管過去幾個月其產品需求呈爆發式增長,但該公司官宣的數十億美元級資料中心擴容協議數量,遠不及部分競爭對手。對於一直塑造更透明、更符合使用者利益品牌形象的Anthropic而言,此次被指“暗箱操作”無疑是致命的打擊。在推進IPO之際,使用者對Claude性能驟降的不滿,以及對公司缺乏透明度的憤怒,很可能直接拖累其高速增長的勢頭。有使用者指責稱,Anthropic既未坦誠披露對Claude運行機製做出的調整,也未告知使用者這些調整可能推高使用成本。Anthropic拒絕公開回應《財富》就使用者投訴提出的具體質疑。但Claude Code產品負責人鮑裡斯·切爾尼線上上回應使用者投訴時表示,此前有使用者反饋Claude處理單個任務時消耗的詞元過多,因此公司將默認“推理努力度”下調至“中等”水平。然而,大量使用者反駁稱,該公司進行此類重大調整時並未向使用者做出明確的提示。行業內的競爭對手也加入了質疑行列,認為Anthropic是因為算力不足刻意降低模型性能。事實上,隨著“代理式”人工智慧系統的市場需求增速遠超基礎設施的擴容速度,整個行業都面臨著GPU成本高企和資料中心擴展受限的困境,人工智慧企業不得不在產品優先順序上做出艱難取捨。種種跡象表明,Anthropic面臨的資源限制比部分競爭對手更為嚴峻。隨著使用量增加,Anthropic近期多次出現服務中斷,並在高峰時段實施更嚴格的使用限制,引發部分使用者投訴。美國消費者新聞與商業頻道(CNBC)曝光的一份內部備忘錄顯示,OpenAI營收負責人直言,Anthropic未能獲取充足的算力資源是一項“戰略失誤”,相比競爭對手,其營運規模正處於明顯劣勢。與此同時,Anthropic上周宣佈已訓練出一款名為Mythos的新模型,性能遠超旗艦模型Opus。Anthropic強調,出於安全考量,目前尚未向公眾發佈該模型。但因其運行成本和算力消耗更高,進一步加劇了外界對其算力資源短缺的質疑。成也蕭何,敗也蕭何Anthropic面臨的審視折射出人工智慧市場瞬息萬變的競爭格局。上周,Anthropic宣佈其年化經常性收入(ARR)已達300億美元,較2025年底的90億美元大幅增長,令業界震驚。相比之下,OpenAI上月公佈的月營收達20億美元,即年營收達240億美元。不過,兩家公司的營收統計口徑並非完全一致,因此無法直接進行對比。Anthropic近期的增長得益於雙重因素:起初得益於人工智慧程式設計工具Claude Code的爆火,隨後又因與美國國防部的爭端獲得大量消費者支援。在川普政府將Anthropic列為“供應鏈風險”實體後,甚至有大量使用者從ChatGPT等競品轉向Claude。Anthropic曾表示,這場爭端源於該公司堅持要求美國政府在合同中承諾,不將其技術用於致命性自主武器研發,或是針對美國公民的大規模監控。過去幾年間,Anthropic在人工智慧競賽中取得了顯著進展,不僅成為企業級人工智慧領域的領軍者,還在開發者和企業使用者中積累了良好的口碑。如果使用者對Claude性能問題的不滿持續發酵,不僅有損其辛苦建立的口碑,甚至可能令這家公司在關鍵時刻陷入困境。針對近期Claude性能問題引發的諸多爭議,Claude Code負責人切爾尼稱,旗艦模型Claude Opus 4.6已於2月初引入“自適應推理”功能,允許模型根據具體任務自主決定推理力度,而非使用固定的算力配額。他還表示,為解決爭議,公司計畫測試將團隊版和企業版使用者的默認努力度設為高等級,以便使用者獲得更深入的推理結果,即便這會消耗更多詞元,出現響應延遲。切爾尼駁斥了關於該模型被故意弱化的猜測,以及使用者對此次調整缺乏透明度的投訴,聲稱相關調整均基於使用者反饋,且已通過Claude Code介面內的彈窗提示使用者。“無法勝任複雜工程任務”目前,爭議最集中的產品是其增長最快的人工智慧程式設計工具Claude Code。Claude Code於2025年初上線,是命令列智能體,可在開發者的工作環境中自主讀取、編寫和執行程式碼。自推出以來,該工具已被個人開發者和大型企業工程團隊廣泛採用,用於完成複雜的多步驟程式設計任務。近期Claude Code的性能變化在社交媒體上引發廣泛關注,源於超微半導體公司(AMD)人工智慧高級總監斯特拉·勞倫佐在GitHub上發佈的一項分析。勞倫佐指出,調整後的Claude能力出現嚴重退化,“無法勝任複雜的工程任務”。勞倫佐指出,2月底至3月初,Claude從“研究優先”模式(先理解上下文再修改程式碼)退化為更直接的“編輯優先”模式,調整後的模型在執行操作前讀取的上下文資訊大幅減少,出錯率顯著上升,且需要使用者進行大量干預。分析還指出,模型在複雜工程任務中頻頻出錯,甚至出現提前終止任務、推卸責任、無意義徵求使用者許可等行為,這與同期模型推理努力度下調直接相關。Anthropic的切爾尼回應該分析表示,其中存在對部分資料的誤讀,並聲稱模型的推理能力並未下降,只是公司做出調整,導致使用者無法再查看模型完整的“推理鏈路”。不過,勞倫佐絕非唯一一個對該工具感到不滿的人。微軟首席研究經理季米特裡斯·帕帕伊洛普洛斯在X平台發文稱:“過去兩周,Claude Code的使用體驗令人極其沮喪。即便我已經將推理努力度調至最高,但它仍極其粗心,忽略指令,反覆出錯。” (財富中文網)編者語AI企業將技術領先作為競爭優勢時,必須匹配堅實的基礎設施投入,獲取充足的算力資源作為戰略儲備,否則增長速度可受限於資源瓶頸。Anthropic為最佳化成本暗中下調AI的“推理努力度”引發使用者強烈不滿,凸顯了科技公司在追求盈利時若犧牲透明度與產品一致性,將損害辛苦積累的品牌口碑和使用者信任。Anthropic在籌備IPO的關鍵節點遭遇性能口碑下滑與算力質疑,揭示了高增長科技公司面臨的資本困境:在脆弱的基礎設施現實面前,高昂的估值預期將經受考驗。(財富中文網)
《經濟學人》美國終於意識到人工智慧的致命威力!
America wakes up to AI’s dangerous powerMythos模型事件後,放任自流的監管路線在政治上已站不住腳,戰略上亦不明智。是否該將全球最具顛覆性的新興技術,託付給寥寥數人?達利歐、德米斯、伊隆、馬克、山姆——這五位僅憑名字便家喻戶曉的極客,對塑造未來的人工智慧模型掌握著近乎神明般的掌控權。即便這些模型的能力已驚人到令人咋舌,川普政府仍選擇袖手旁觀,篤信私營企業間不受約束的競爭,是確保美國在人工智慧競賽中戰勝東方大國的最佳途徑。如今,局面終於生變。美國對人工智慧一貫的自由放任態度,眼看即將走向終結。原因在於,這些模型突飛猛進的發展,同樣對美國自身國家安全構成威脅,令此前更擔憂過度監管的川普政府官員坐立難安。與此同時,美國選民的不滿情緒日益高漲,人工智慧正淪為政治導火線。放任自流的路線,在政治上已無立足之地,戰略上也絕非明智之選。轉折點出現在4月7日,Anthropic發佈Claude Mythos模型。這家模型研發機構的最新成果,在挖掘軟體漏洞方面能力驚人,一旦落入不法之手,將對銀行、醫院等關鍵基礎設施構成致命威脅。人工智慧模型還不斷催生其他風險,從生物安全隱患到規模化詐騙,不一而足。Anthropic首席執行長達利歐·阿莫代伊頗為明智,判定Mythos模型風險過高,不宜公開發佈。他僅將其開放給約50家來自電腦、軟體、金融領域的大型企業使用,助力這些企業強化自身防禦體系。美國財政部長斯科特·貝森特深感不安,隨即召集各大銀行召開緊急會議。這並非本屆政府首次出手干預。就在數周前,阿莫代伊拒絕讓Anthropic的模型用於全自動武器及大規模國內監控,五角大樓隨即介入。彼時川普政府同樣警覺不已——只因一家企業竟對這項關乎國家安全核心的技術擁有絕對主導權。選民的強烈反對,將進一步施壓政府採取干預措施。民調顯示,越來越多政客認為,人工智慧會成為2028年大選的核心議題之一。美國民眾對人工智慧的質疑態度,遠甚於其他國家民眾。七成美國人認為人工智慧會擠壓就業崗位,這一比例較一年前大幅攀升(且遠早於他們掌握切實證據之時)。儘管人工智慧與電價上漲幾乎毫無關聯,民眾對資料中心的基層反對聲浪卻持續高漲。近期,OpenAI首席執行長山姆·奧爾特曼的住所兩次遭襲,正是時代情緒的鮮明寫照。歷史昭示,對於人工智慧這般足以改變世界的技術,Mythos這類引爆輿論的關鍵節點遲早會到來。從約翰·D·洛克菲勒到亨利·福特,美國重大工業革新均由少數人引領,他們也因此積累起滔天權勢。最終,20世紀的政府出手制衡權力過度膨脹的行業:從拆分標準石油的反壟斷行動,到聯準會成立、美國電話電報公司分拆。彼時的社會分裂與躁動不安,絲毫不亞於今日。而我們的測算表明,這些人工智慧領域的“巨頭”,權勢尚未超越歷史上的前輩。但歷史同樣表明,管控人工智慧註定步履維艱。一方面,一旦失控,後果不堪設想;另一方面,人工智慧正以光速迭代發展。其中的利弊權衡極為尖銳。人工智慧技術快速普及,將推動經濟增長,但民眾的牴觸情緒極易引發過度監管。若坐視不管,美國可能陷入人工智慧惡意濫用引發的混亂;可監管過當,又會讓東方大國在人工智慧競賽中穩操勝券。當下,正是危機四伏的關鍵時刻。時間已然緊迫。兩年前拜登政府執政期間,有關監管的討論還大多聚焦於人工智慧的潛在風險。如今,其能力已強大到令人警惕,且每一次更新都在持續升級。創新的速度意味著,過去歷經數年乃至數十年才得以釐清的政府職能定位之爭,如今必須在數月內給出答案。而轉向更積極干預路線的技術障礙,更是令人望而生畏。國有化等政府管控手段收效甚微,因為頂尖工程師可在企業間自由流動,算力也已是大眾化資源。更嚴峻的是,頭部模型研發機構僅比開源競爭對手(包括東方大國的相關機構)領先數月。遲早,這些頂尖模型的能力會全面普及。即便如此,Mythos事件或許正是可行的人工智慧管控方案開始成型的契機。受信使用者可優先獲取最強大的新模型:繼Anthropic之後,OpenAI也將其最新工具僅向經過稽核的少數網路安全專業人士開放。在允許這些模型大規模商業化之前,政府可要求由行業主導機構完成不同應用場景的測試並出具認證。警惕身懷絕技的極客這一思路對頭部模型研發機構與政府雙方均有利。它無需耗費漫長流程設立新監管機構;僅向少數高端使用者開放,也能讓模型研發機構制定更高定價,合理調配稀缺算力資源。同時,政府可限制頂尖模型的使用對象,降低東方大國複製技術、加速趕超的風險。但該方案也存在致命缺陷。有限度發佈會削弱競爭,強化現有人工智慧巨頭的壟斷地位;會延緩人工智慧紅利的普及,在美國經濟內部形成雙層體系,讓眾多無緣優先獲取頂尖新模型的企業處於劣勢。倘若人工智慧防禦體系的建構耗時漫長甚至無法實現,又該如何應對?開源模型又該如何規範?如何強制其遵守相關規則?以此為基礎搭建的監管體系,恐難彰顯公平。圈內企業可抵禦前沿風險,圈外企業只能聽天由命。遊說逐利的空間將無限擴大。這對美國現代政治史上堪稱最腐敗的一屆政府而言,無疑是對其誠信與執政能力的嚴峻考驗。而這種將權力與財富進一步集中在少數人工智慧“巨頭”手中的解決方案,反而可能加劇華盛頓已然擔憂的政治反噬。 (invest wallstreet)
Claude Opus 4.7連夜突襲:或將搶走全球7億打工人飯碗!
Anthropic 正式發佈 Claude Opus 4.7,核心升級落在複雜任務執行、高畫質視覺理解和更穩的長鏈路工作流上。對普通使用者來說,最直接的變化是更聽指令、更會看圖、產出更接近成品,同時也要注意Token也會燒得更快了。4月16日,Anthropic正式發佈Claude Opus4.7,並將它定義為當前可廣泛使用的最強Claude模型。性能不如此前曝光的新一代Claude Mythos Preview那麼炸裂,但比普通使用者能真正用到的Opus 4.6強了太多,除了Agentic搜尋能力略有下降外,實現了全面碾壓!官方給出的本次升級的關鍵詞:複雜任務、更強視覺、更穩的長鏈路執行,以及更少需要人工參與。只要還在用大模型寫文件、讀截圖、做演示、整理材料,Opus 4.7帶來的體驗變化,很難繞開。本次更新最大的亮點,是Opus 4.7的視覺能力大幅提升,在測試中從Opus 4.6約50%的分數,直接飆升到接近滿分!而這,補上了AI目前最大的視覺短板,或許已經不知不覺地邁過了替代人類工作的那道最重要的檻!GPT-5.4 Thinking是這樣評價它的對手Claude Opus 4.7發佈給打工人帶來的影響的:本次升級的關鍵在於複雜任務的完成度Anthropic 把 Opus 4.7的核心升級點放在了高級軟體工程和長時間任務執行上。使用者已經可以把過去需要密切監督的高難度編碼工作交給它處理,它會更嚴格地執行指令,也會在回報結果前主動想辦法驗證輸出。API發佈說明裡,Anthropic也把它稱為當前最強的通用可用模型,面向複雜推理和代理式編碼場景。大模型競爭的焦點,正在從答得像不像,轉到做得完不完。只會寫一段漂亮答案,已經不夠了。能不能把一份長文件改乾淨,能不能把一套資料串起來做成可交付物,能不能持續幾十分鐘甚至更久不跑偏,這才會決定它在日常工作裡能不能真的替人扛起一片天。這能夠從 Opus 4.7的官方發佈重點裡直接看出來。純程式設計只是開胃菜SWE-bench Multilingual測的是模型修復真實GitHub issue的能力,覆蓋多種程式語言。Opus 4.7拿80.5%,Opus4.6拿77.8%,漲2.7個百分點。單看這個數,似乎只是一次常規迭代。但同一張圖右邊那組資料更有意思,後面回頭講。1M token 裡的長任務GraphWalks 是OpenAI做的長上下文基準,把一張有向圖用邊列表塞滿1M token上下文,讓模型做圖遍歷。兩種考法:一種Parents,給一個節點讓模型找出所有直接指向它的父節點;另一種是BFS廣度優先搜尋,從起點出發一路找到特定深度可達的節點,對 Agent 跑多步驟長任務是硬指標。在Parents 1M 這趴,Opus 4.7從71.1%提到75.1%,4個百分點的常規改進。而到了BFS 1M,Opus4.7則從41.2%一口氣幹到58.6%,拉開17.4個百分點。換個場景再看。Vending-Bench 2讓模型模擬經營一台自動售貨機,測長時間工作流裡的決策連貫性。Opus 4.6最終餘額8,018美元,Opus 4.7做到10,937美元。同一台售貨機,同一個時間窗口,Opus 4.7多掙了36%。Agent 的眼睛換了代ScreenSpot-Pro測的是Agent的螢幕定位能力。給模型一張VSCode、Photoshop、AutoCAD這類專業軟體的高解析度桌面截圖加一條自然語言指令,讓它定位到具體的UI元素。在高解析度螢幕裡,目標 UI 元素往往只佔整張圖的0.07%,極考驗精細視覺。同樣低解析度不帶工具,Opus 4.6拿57.7%,Opus 4.7拿69.0%,拉開11.3 個百分點。切到高解析度,Opus 4.7不帶工具就達到了79.5%。疊加工具呼叫,跑分直接來到87.6%。視覺能力在一些測試(如XBOW的基準測試)中,Opus 4.7相比Opus 4.6得分直接翻倍,從54.5%躍升到接近滿分98.5!這造就了Opus 4.7相比4.6在電腦使用(Computer Use)能力的天壤之別!回到前面留的那張程式設計圖。SWE-bench Multimodal這項,Anthropic 是用內部實現的測試harness跑的。測的是前端JS軟體 bug,任務裡帶著UI截圖、效果圖一類的視覺素材,模型要結合圖片和程式碼一起幹活。從Opus 4.6的27.1%做到Opus 4.7的34.5%,一口氣提了7.4個百分點。Opus4.7的程式設計升級,重點是讓模型看懂螢幕。眼睛換代了,腦子才能幹更複雜的活。GPT-5.4 和 Gemini3.1 Pro都沒扛住前面全是自比,現在來看看跟老對手們怎麼打。GDPval-AA是Artificial Analysis基於OpenAI GDPval資料集做的評估。它覆蓋了44種知識工作職業、9大GDP核心行業,任務來自資深職業人士(平均14年經驗)的真實交付物。AA版本讓模型在agent loop裡幹活,用盲測兩兩對比打 Elo 分。Opus 4.7拿1753,Opus4.6 拿1619,GPT-5.4拿1674,Gemini 3.1 Pro 拿 1314。Opus 4.7高出 GPT-5.4 79 分,高出 Gemini 3.1 Pro 439 分。OfficeQA Pro 是 Databricks 做的企業級推理基準,語料是近 100 年的美國財政部公報,8.9 萬頁 PDF、2600 萬個數字。模型要精準找到文件、解析表格和正文、跨文件做分析推理。在這裡,Opus 4.7 的跑分高達 80.6%,而 Opus 4.6 隻有 57.1%,GPT-5.4 和 Gemini 3.1 Pro 更低,分別是 51.1%和 42.9%。換句話說,Opus 4.7 是 GPT-5.4 的 1.6 倍,是 Gemini 3.1 Pro 的 1.9 倍。躍升最炸的是生物學翻到最後一張,Structural Biology,生物分子推理。Opus 4.6 隻有 30.9%。而Opus 4.7 直接衝到了 74.0%。一次版本迭代,從三成到七成半,2.4 倍。堪稱是所有 benchmark 裡躍升最誇張的一項。普通使用者最先感受到的是三大變化第一個變化,指令遵循能力更強了。Anthropic 寫到,Opus 4.7的指令遵循能力大幅提升,過去很多模型會鬆散理解、漏掉細節,Opus 4.7則更傾向於逐條照著執行。代價是,舊提示詞有時會出現意料之外的結果,使用者需要重新調整寫法。對普通使用者來說,這會直接減少提示詞玄學,寫需求、定格式、列限制條件,會更有用。第二種變化,Claude看圖會更細。Opus 4.7 支援長邊最高 2576像素的圖像輸入,大約375萬像素,超過此前 Claude 模型的三倍。官方專門點了幾個場景,密集截圖、複雜圖表、精細結構圖、需要像素級參考的任務。放到現實使用裡,這對應的就是看懂一頁密密麻麻的資料截圖,識別產品原型細節,從複雜流程圖裡抽資訊,讀一張高解析度海報或報表時少丟細節。第三種變化,輸出結果會更容易接近可交付的成品。Anthropic提到,Opus 4.7在介面、幻燈片、文件這些專業任務上更有審美,也更有創造性。它在基於檔案系統的記憶上做得更好,能跨多輪、多會話記住關鍵備註,減少重複交代背景。對經常拿模型潤色材料、整理項目、反覆改同一份內容的人來說,這種提升會比跑分的提升來得更直觀。這次發佈安全也被擺在了同樣重要的位置Anthropic 在一周前剛剛公佈 Project Glasswing,專門談到了前沿模型在網路安全方向的風險與收益。Opus 4.7 成了這套新思路下第一個公開部署的模型,官方強調,它的網路安全能力弱於 Mythos Preview,並且上線時帶有自動檢測和攔截高風險網路安全請求的護欄。合規安全研究人員則可以申請加入新的Cyber Verification Program。從安全評估看,Opus 4.7與Opus 4.6的整體安全畫像相近,在誠實性和抵抗惡意提示詞注入上更強,在某些細項上也存在小幅走弱。Anthropic的結論是,它整體上「較為可靠且值得信任」,距離理想狀態還有空間。這說明,Anthropic沒有把發佈包裝成一次毫無代價的全面躍升。誰會立刻受益誰又要多留一個心眼最先受益的人群很清楚,開發者、分析師、法務、研究人員,以及所有高頻處理文件、表格、演示材料的人。官方早期測試反饋裡,很多合作方都提到同樣幾件事,複雜工作流更穩了,錯誤恢復更強了,文件推理、程式碼審查、資料分析、長上下文任務都有明顯提升。需要多留一個心眼的地方也已經寫在官方說明裡。更高解析度圖像會燒掉更多Token,使用者用不到這些細節時,最好先壓縮圖片。Opus 4.7還換了分詞器(Tokenizer),同樣的輸入可能會多出大約1.0到 1.35倍Token,高Effort 下輸出Token也會增加。對直接在Claude應用裡聊天的普通使用者,這更多會體現在額度和響應體驗上。對使用龍蝦和Hermes Agent這類API的使用者和團隊客戶,這就是實打實的成本變數。好在價格方面,Opus 4.7和4.6與4.5保持了一致,沒有漲價,但這個價格本身其實就已經足夠昂貴了...Anthropic想傳遞的訊號已經很清楚了從Opus 4.7這次發佈能看出,Anthropic眼下押注的方向已經很明確,長任務執行、視覺理解、工具協同、少監督交付,這幾項能力正在被打包成下一階段的大模型主戰場。官方同步上線的 Xhigh Effort(思考程度介於 high 和 max 中間)、Task Nudgets 公測,以及 Claude Code 裡的 /ultrareview,也都圍著這個方向在轉。除了官網公告外,Claude也公佈了Opus 4.7的系統卡,長達232頁,裡面公佈了更多值得關注的細節,限於篇幅再次我們不作展開。對普通使用者來說,對Claude Opus 4.7更直接的感受會是,交代清楚以後,它更容易把事情做對,看圖更細,寫出來的東西更能直接拿去用。大模型從會聊天走向會幹活,這一步又往前挪了一大截。真正能幹好活的最強生產力模型,從Opus 4.6,變成了Opus 4.7。 (前瞻經濟學人)